使用本机LUT作为独立培训推理运营商的FPGA特定的DNN架构已被证明实现了有利的区域准确性和能量准确性权衡。该领域的第一个工作Lutnet,对标准DNN基准测试表现出最先进的性能。在本文中,我们提出了学习的基于LUT的拓扑结构的优化,从而导致更高效率的设计,而不是通过直接使用现成的手工设计的网络。本类架构的现有实现需要手动规范的每拉特的输入数,K。选择合适的k先验是具有挑战性的,并且在甚至高粒度下这样做,例如,如此。每个层,是一种耗时和错误的过程,可以留下FPGA的空间灵活性欠缺。此外,先验工作请参阅随机连接的LUT输入,不保证网络拓扑的良好选择。为了解决这些问题,我们提出了逻辑收缩,一种细粒度的网格剪枝方法,使K将自动学习,用于针对FPGA推理的神经网络中的每一个LUT。通过删除确定为低于重要性的LUT输入,我们的方法会增加所得加速器的效率。我们的GPU友好的LUT输入拆卸解决方案能够在培训期间加工大型拓扑,可忽略不计的放缓。通过逻辑收缩,我们可以分别更好地完成CNV网络的最佳Lutnet实现的区域和能源效率,分别将CIFAR-10分别达到1.54倍和1.31倍,同时匹配其精度。该实现也达到2.71倍的区域效率同样准确,严重修剪的BNN。在具有双重净架构的Imagenet上,逻辑收缩的就业导致综合后面积减少2.67倍VS Lutnet,允许以前在今天最大的FPGA上实现的实施。
translated by 谷歌翻译